近些年来,跨模态检索引起了研究者广泛的研究 兴趣。一般来说,与传统的单模态检索方法相比, 跨模态检索需要构建跨模态关系模型,以便用户可 以通过提交他们所拥有的模态来检索他们期望的模 态。 大量的深度跨 模态检索技术被提出并取得了优异的跨模态检索性 能,在学术界和工业界产生了广泛的影响。 本文 原论文PDF 获取方式: 关注微信公众号 datayx 然后回复 跨模态 即可获取。 Peng 等人 (2017)在 2017 年发表了跨模态检索的综述论文, 但当时没有对 2017 年之后的跨模态检索方法进行 总结。 针对跨模态检索面临的各种挑战性问题,研究者提 供了各种思路和技术。本文着重总结了这些与以往 相关研究有很大不同的深度跨模态检索的最新研究 成果。 1 深度跨模态检索概述 深度跨模态检索的一般框架如图 2 所示。深度特 征学习以及跨模态相关关系建模为多模态共同表示 学习的重要步骤,在减少异质鸿沟问题中发挥重要 作用。
概述 近年来,由于跨模态数据的快速增长,跨模态检索备受关注。它以一种类型的数据作为查询,来检索另一种类型的相关数据。例如,用户可以用一段文字来检索相关的图片或视频。 由于查询及其检索结果可以是不同的模态,如何衡量不同模态数据之间的内容相似性仍然是一个挑战。 图像与自然语言之间比较有代表性的应用有双向-图像文本检索、自然语言对象检索和视觉问题回答(VQA)等。 输入行人描述后再使用 Milvus 进行搜索,即可获得目标行人图像,实现跨模态检索。 算法 网络结构 本项目使用了 DCPL 论文中的网络架构。 它将跨模态投影纳入 KL divergence,以关联不同模态的特征表示。 系统介绍 系统架构 下面我们将介绍如何搭建基于 Milvus 的跨模态行人检索系统。如下图所示,本系统将包含数据导入和行人检索两个部分: ?
当前跨模态检索的主要方法将视频和文本模态映射到联合视觉语义空间以计算跨模态相似度。 3 实 验 1、不同数据集上跨模态检索性能比较 如表1所示,通过使用多层次的文本视频匹配,我们的模型HGR在多个数据集上取得了最好的跨模态检索性能。 这表明将视频和文本分解为全局到局部的层次化图结构有益于提高跨模态检索的准确性。 表1. 在不同数据集上与SOTA模型进行跨模态检索性能比较。 2、跨数据集的泛化性能比较 现有跨模态检索模型通常是在同一数据集进行训练和测试。但是,模型对于不同领域数据的泛化性能在实际中至关重要。 因此,我们进一步进行跨数据集的泛化性能评估:在一个数据集上训练跨模态检索模型,然后在另一个未见的数据集上测试。表2为实验结果,HGR模型在跨领域的数据集上测试取得了显著更好的效果。
在 EMNLP 2021 提交的论文《MURAL:跨语言的多模态、多任务检索》(MURAL: Multimodal, Multitask Retrieval Across Languages)中,我们描述了一种用于图像 多语言图像到文本和文本到图像检索 为了展示 MURAL 的能力,我们选择了跨模态检索的任务(即基于文本检索相关的图像,反之亦然),并报告了在各种学术图像 - 文本数据集上的得分,这些数据集涵盖了资源丰富的语言 各种多语言图像-文本检索基准的平均召回率。 平均召回率是用于评估图像 - 文本数据集的跨模态检索性能的常用指标(越高越好)。 颜色编码与上图相同 结 语 我们的研究结果表明,使用翻译对进行联合训练可以有效地克服许多资源不足的语言中图像 - 文本对的稀缺性,并提高跨模态性能。 此外,在使用多模态模型学习的文本表示中,观察区域语言学和接触语言学的提示也很有意思。因此,需要进一步探索通过多模态模型(如 MURAL)隐式学习到的各种联系。
) 链接:https://arxiv.org/pdf/2208.12526.pdf 代码: https://github.com/LiJiaBei-7/nrccr 虽然目前传统的跨模态检索工作已取得了巨大的进展 为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适用于其他目标语言(非英语)进行评估【如下图所示】。 传统跨模态检索&跨语言跨模态检索(CCR) 在这篇论文中,作者旨在借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移,来缓解人工标注多语言视觉-语言语料库困难的问题。 然而直接在这种噪声数据对上应用跨模态匹配将会严重影响检索性能,神经网络模型有很强的能力来拟合这种给定的(噪声)数据。 作者使用了传统的跨模态检索任务中常用的triplet ranking loss进行约束: 噪声鲁棒的特征学习 基线模型只是简单的进行了跨语言跨模态对齐,并没有对噪声进行处理,接下来作者提出了多视图自蒸馏来生成
跨模态检索的主要目标是用一种模态(比如:文本)的查询请求来检索具有相似语义但处于其他模态(比如:图片) 的内容。 考虑到在实际应用场景中对于低存储消耗和快速响应查询的要求,哈希算法可以通过给相似的跨模态内容赋予相似的哈希码的方式,将高维的多模态数据映射到一个公共的哈希码空间,因而在跨模态检索领域获得了广泛的关注。 该模型的主要亮点如下: 本文提出了一个新型的用于跨模态检索的自监督对抗哈希模型。据作者介绍,这是第一批尝试将对抗学习应用到跨模态哈希问题的工作之一。 本文提出的 SSAH 在不丢失通用性的同时,研究者聚焦于双模态(即图像和文本)上的跨模态检索。图 1 的流程图可以很好地展示 SSAH 方法的一般原则。 论文地址:https://arxiv.org/abs/1804.01223 摘要:由于深度学习的成功,最近跨模态检索获得了显著发展。
VCR排行榜前五名 多模态检索 最后介绍一个跟大家生活比较贴近的任务,以KDD 2020的Multimodalities Recall challenge[2]为例。 由于互联网图片通常有大量的文字上下文,现有技术可以完全不利用多模态交互做到一个比较好的使用体验。但基于多模态的技术会大大扩展检索的使用范围并提高体验。 ? 多模态检索任务示意图,对于这个例子大家在搜索引擎搜“豹纹女鞋”应该都能得到好结果 多模态模型 为了更好地解决多模态问题,大概有以下几个重要的子问题需要解决 多种模态如何混合输入 多种模态间的信息怎么交互 先分别使用语言编码器和图像编码器对两种信息进行分别编码,再通过一个跨模态编码器(cross-modality encoder)进行交互。如果你熟悉文本匹配,那对这种套路应该再熟悉不过了。 ? 采用“双塔”分别对文本和图片进行编码,再通过跨模态编码器进行交互 如何预训练 在介绍VL-BERT的预训练之前,我们先简单回顾一下BERT的预训练任务。
作者: 陈先客 方向: 跨模态检索 学校: 浙江工商大学 概览 本文介绍一篇ACM MM 2022 Oral的工作。 基于传统的跨模态文本-视频检索(Video-to-Text Retrieval, T2VR)任务,该工作提出了一个全新的文本到视频跨模态检索子任务,即部分相关的视频检索(Partially Relevant 在现实世界中的检索场景大多符合后者。 为了弥补这一鸿沟,作者提出了一种新的T2VR子任务——部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。 第一阶段为从视频库中检索出k个候选视频,第二阶段为从候选视频中检索出准确的起止时刻。 结论 在本文中,针对传统T2VR任务在现实中的局限性,作者提出了一个全新的文本到视频跨模态检索子任务PRVR。在PRVR中,查询文本与对应视频均呈部分相关关系而非传统T2VR任务中的完全相关关系。
二、什么是多模态检索?多模态检索(MultimodalRetrieval)是指系统能够处理多种数据类型(如文本、图像、音频、视频等),并将它们映射到统一的向量空间,实现跨模态的相似度匹配。 多模态检索的三种模式:检索模式查询类型返回类型应用场景文查图文本图像"找一件红色连衣裙"图查文图像文本上传图片找商品描述图查图图像图像找相似款式三、多模态检索如何工作跨模态对齐:从对比学习到统一空间实现跨模态对齐的关键技术是对比学习 ,编码成向量系统都能用同一个模型编码成向量,实现真正的跨模态检索。 跨语言多模态检索:支持不同语言的文本和图像进行跨语言、跨模态的检索。比如用中文描述检索英文商品图片,或者用日文描述检索中文设计素材。 六、总结与思考多模态检索的本质是跨模态对齐,通过对比学习让不同模态的数据在统一的向量空间中对话。实现上分为三步:建立索引、查询处理、跨模态检索。
如何让 AI 真正理解并推理这些复杂的视觉信息,一直是多模态 AI 领域的核心挑战。 传统的检索增强生成(RAG)方法在处理纯文本时表现不错,但一旦涉及到视觉内容,往往就显得力不从心。 项目介绍 VRAG 是由阿里巴巴通义实验室打造的多模态检索增强生成框架。这个项目包含了三个核心部分:VRAG-RL、VRAG和VimRAG,每一个都有自己独特的定位和能力。 这种从粗粒度到细粒度的感知方式,不仅提高了模型对视觉信息的理解能力,还显著提升了检索效率。 用的是业界领先的 GRPO 算法,让视觉语言模型在与搜索引擎的多轮交互中,持续优化自己的检索与推理能力。 自定义检索器 还可以构建自己的检索器。
随着深度学习的发展,跨模态对齐和跨领域学习成为了多个领域中重要的研究方向,特别是多模态融合、迁移学习、自然语言处理、计算机视觉等。 什么是跨模态对齐? 跨模态对齐的目的是通过设计模型,使得来自不同模态的输入能够在一个公共表示空间中表达。这样,来自不同模态的信息就可以被处理、对比和结合,进而提升下游任务的表现。 什么是跨领域学习? 跨模态对齐的理论基础 1.1 多模态数据的挑战 在实际应用中,数据可能以不同的模态出现,例如图像、文本、音频等。这些模态之间存在着显著的差异。 跨模态对齐与跨领域学习的结合 跨模态对齐与跨领域学习的结合在某些应用场景中尤为关键。例如,在多模态情感分析中,我们可能需要从图像和文本中同时提取情感特征,并将其结合到一个公共空间中。 跨模态生成模型:诸如 CLIP、DALL-E 等模型已经在跨模态生成和对齐上取得了巨大进展,可以结合这些最新研究进行更深入的探索。 结论 跨模态对齐与跨领域学习是当前深度学习领域中的重要研究方向。
BERT以及BERT后时代在NLP各项任务上都是强势刷榜,多模态领域也不遑多让。前几天我们刚分享了复旦邱锡鹏老师的报告:复旦邱锡鹏教授 | 『语言+X』预训练模型,今天就来详细整理一些代表性工作。 对于单模态任务,用标准的BERT打上mask进行预测,对于跨模态任务,用语言-视觉对齐任务,即使用[CLS]的最终隐藏状态来预测语言句子是否在时间上与视觉句子对齐。 Transformers 地址:https://arxiv.org/abs/1908.07490 arxiv访问不方便的同学后台回复『0031』直接获取论文 三个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器 值得注意的模型细节 使用了 5 个不同的、有代表性的预训练任务:masked语言建模、masked对象预测(特征回归和标签检测)、跨模态对齐以及图像问答。
利用生成式AI进行多模态信息检索过去十年的大部分时间里,机器学习严重依赖于嵌入的概念:模型学习将输入数据转换为向量,使得向量空间内的几何关系具有语义含义。 嵌入概念意味着一个明显的信息检索范式:查询被嵌入到表示空间中,模型选择嵌入最接近它的响应。这也适用于多模态信息检索,因为文本和图像可以被嵌入到同一个空间。然而,最近生成式AI主导了机器学习研究。 我们的模型被命名为GENIUS,是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。 GENIUS与局限于单模态任务或特定基准的先前方法不同,GENIUS可以推广到文本、图像和图文对的检索,保持高速度和具有竞争力的准确性。 随着数据集的增长,其效率优势变得更加显著,无需像基于嵌入的方法那样进行昂贵的索引构建即可保持高检索速度。因此,它代表了生成式多模态检索领域的重要进展。FINISHED
本文针对视频文本检索任务提出层次化对比学习的跨模态检索思路,实现了更加高效且精准的视频文本检索方法,目前该论文已经被 ICCV2021 接收。 实验表明 HiT 在多个视频-文本检索数据集上取得 SOTA 的效果。 HiT 模型主要有两个创新点: 提出层次跨模态对比匹配 HCM。 因此使用 HCM 进行多次对比匹配,可以利用 Transformer 这一层次特性,从而得到更好的视频文本检索性能; 引入 MoCo 的动量更新机制到跨模态对比匹配中,提出动量跨模态对比 MCC。 输入视频经过视频编码器,输入文本经过文本编码器,然后在 2 种网络层级(特征底层、语义高层)上分别使用 2 种检索方式(文本检索视频、视频检索文本)共完成 4 次跨模态对比匹配。 模型共完成 4 次跨模态对比匹配,分别对应 2 个网络层级(特征层,语义层)和 2 种检索方式(文本检索视频、视频检索文本)。
大模型迭代闭环趋势 众所周知,大模型技术不断发展,已经从大模态发展到了多模态和跨模态,比如从Instruct GPT3技术发展到跨模态的DALL·E-2技术,同时大模型在应用过程中也产生了非常好的轻量级应用技术 在跨模态领域,最近提出了扩散模型,该模型引发了文本到图像生成技术的变革,比如百度提出了文心ERNIE-ViLG 2.0,该模型可以生成语义更相关、质量更高的图片。 比如在多模态拟人效果上,基于大模型的数字人,借助形象、语音与表情更好地沟通表达、传递信息,从而大幅提升人和机器之间的交互体验。 统一大模型进一步促进生态繁荣 随着技术、应用、数据闭环的不断发展,模型开始趋向于跨语言、跨模态、跨任务的统一大模型。 以前不同语言、不同模态和不同任务,都是单独模型;随着技术不断发展,现在能够对多个任务使用统一模型学习,比如模型能同时学习文本、语音、图像、视频等数据。
PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。 图 2:PreFLMR 模型同时在多项任务上取得极佳的多模态检索表现,是一个极强的预训练基底模型。 2. 尤其是在多模态任务中,用户的问询(Query)包含复杂场景信息,压缩至一维向量极大抑制了特征的表达能力。PreFLMR 继承并改进了 FLMR 的结构,使其在多模态知识检索中有得天独厚的优势。 M2KR 数据集 为了大规模预训练和评估通用多模态检索模型,作者汇编了十个公开的数据集并将其转换为统一的问题 - 文档检索格式。 实验结果表明对于后期交互多模态检索系统,增加视觉编码器的参数带来的回报更大。
这种嵌入概念意味着一种直观的信息检索范式:查询被嵌入到表示空间中,模型选择其嵌入与之最接近的响应。这同样适用于多模态信息检索,因为文本和图像(或其他模态)可以嵌入到同一空间中。 该模型名为GENIUS,是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。 GENIUS与局限于单模态任务或特定基准的先前的尝试不同,GENIUS可推广到文本、图像和图文对的检索,同时保持高速度和有竞争力的准确性。 每个ID实际上是一个代码序列,其中第一个代码定义数据项的模态(图像、文本或图文对)。 其效率优势随着数据集的增长而变得更加显著,在无需进行基于嵌入方法中昂贵的索引构建的情况下,保持高检索速度。因此,它代表了生成式多模态检索领域的重要一步。
嵌入概念意味着一个直观的信息检索范式:查询被嵌入到表示空间中,模型会选择嵌入最接近它的响应。这也适用于多模态信息检索,因为文本和图像(或其他模态)可以嵌入到同一空间。 我们的模型名为GENIUS(意为生成式通用多模态搜索),是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。 GENIUS与仅限于单模态任务或特定基准的先前方法不同,GENIUS可推广到文本、图像和图文对的检索,同时保持高速度和有竞争力的准确性。 每个ID实际上是一个代码序列,第一个代码定义了数据项的模态——图像、文本或图文对。 随着数据集的增长,其效率优势变得更加显著,无需像基于嵌入方法那样进行昂贵的索引构建即可保持高检索速度。因此,它代表了生成式多模态检索的重大进步。
在本文中,作者提出了一种基于跨模态输入消融诊断方法(cross-modal input ablation) 来评估这些模型实际上整合跨模态信息的程度。 理论上,当其中一个模态的输入缺失时,在两种模态上已经学习好的跨模态表示模型的表现会变差。 目前,我们很难准确地分析这些模型如何使用跨模式信息。 在本文中,作者引入了一种跨模态输入消融(cross-modal input ablation) 方法来量化预训练的模型学习使用跨模态信息的程度。 因此,跨模态输入消融捕获了模型在生成预测时依赖于跨模态输入和激活的程度。 如果测试过程中,去除某个模态的信息,对最终结果影响很大,那这个模态在最终预测的时候就是有用的;否则这个模态就是没用的。 多模态模型在预测时使用由多模态输入触发的跨模态激活。
利用生成式AI进行多模态信息检索过去十年间,机器学习主要依赖嵌入概念:模型学习将输入数据转换为向量,使得向量空间中的几何关系具有语义含义。例如,嵌入表示相近的词语可能具有相似含义。 这种嵌入概念催生了明显的信息检索范式:将查询嵌入表示空间,模型选择嵌入最接近的响应。这也适用于多模态信息检索,因为文本和图像可以嵌入同一空间。 我们的模型名为GENIUS(通用多模态搜索生成框架),是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。 GENIUS的创新与先前局限于单模态任务或特定基准的方法不同,GENIUS泛化适用于文本、图像和图文对的检索,保持高速度和竞争力准确性。 随着数据集增长,其效率优势变得更加显著,保持高检索速度,而无需基于嵌入方法典型的昂贵索引构建。因此,它代表了生成式多模态检索的重要进展。